@曾军:《从数字人文到AI人文:人文研究范式的变革》
核心论点
生成式 AI 技术正驱动人文研究范式从数字人文 (Digital Humanities) 向 AI 人文 (AI Humanities) 转型。这不仅是技术升级,更是知识生产方式的深刻变革。
一、从数字人文到 AI 人文的技术演进逻辑
-
数字人文 (DH) 阶段
- 起源:人文计算 (Humanities Computing),如 Roberto Busa 的《托马斯著作索引》。
- 核心理念:远读 (distant reading),由 Franco Moretti 提出。
- 本质:将人文文献数字化、数据化,以实现高效处理与利用。
- 典型流程:数据采集 -> 数据处理 -> 数据分析 -> 可视化展示。
- 核心挑战:
- 技术门槛高。
- 劳动密集,耗时费力。
- 研究者的编程技能限制研究深度。
-
AI 人文 (AIH) 阶段
- 驱动力:以大语言模型 (ChatGPT, Sora) 为代表的生成式 AI。
- 本质:在数字人文基础上,整合 AI 技术,实现人文信息分析的自动化和智能化。
- 目标:实现 AI4R (AI for Research),释放知识生产的潜能。
- DH 与 AIH 的关键区别:
- 数字人文:侧重数据收集、整理与可视化,强调人的研究主体性与深度解读。
- AI 人文:核心是利用 AI 的模式识别、预测推断和语言生成能力,强调自动化处理与知识发现。
二、人类经验的向量化:AI 人文的知识生产潜能
-
核心突破:生成式 AI 实现了人类经验的向量化。
- 将文本、图像等非结构化的人类经验信息,转化为机器可处理的数学向量。
- 算法本质上是人类社会历史文化经验图式的反映和模拟。
-
知识生产的三大潜能:
- 模式识别
- 从海量数据中高效提炼有价值的信息、规律和模式。
- 支持风格迁移、新作品创造等。
- 信息重组
- 构建文本间的“互文性 (intertextuality)”网络。
- 揭示不同作品、作者、现象间的深层关联。
- 预测推断与语言生成
- GPT (生成式预训练转换器) 的核心能力。
- 预测未来趋势,并根据需求生成多模态内容 (文、图、视频等)。
- 模式识别
-
应用范式:从 AI for Science 延伸至 AI for Humanities,AI 成为知识探索的新工具。
三、人机互动:“需要人的 AI”与“拥有 AI 的人文”
-
“需要人的 AI”:AI 的局限性
- 认知层面:生成的知识缺乏“经证实的真信念” (justified true belief),不是真理。
- 知识范围:无法涵盖默会知识、道德价值、经验性知识等。
- 思维能力:缺乏真正的批判性思维和“元认识能力”。
- 结论:AI 无法产生自我意识和主观能动性,需要人的引导和监督。
-
“拥有 AI 的人文”:人的局限性
- 认知边界:“吾生也有涯,而知也无涯”。
- AI 的角色:作为认知能力的延伸,辅助人类处理海量信息,突破个体认知极限。
-
核心关系:人机互动
- AI 人文的模式是人机交互、辅助生成。
- 人依然处于中心性、支配性和主导性地位。
- 人文研究的非流程化、非重复性、超常规性特点,决定了人的主观判断与创造性思考不可或缺。
结语:挑战与展望
-
亟待应对的问题
- 算法黑箱 (Algorithmic Black Boxes)
- 算法偏见 (Algorithmic Bias)
- AI 幻觉 (AI Hallucination)
- AI 自我意识觉醒的可能性
-
未来展望
- AI 人文是一个充满挑战与机遇的前沿领域。
- 技术将向更高级的自然语言处理、情感分析和多模态内容生成发展。
- 人文社科学者需要密切关注并积极实践,以应对随之而来的复杂伦理、社会和技术挑战。